Améliorer la classification de documents par combinaison de descripteurs visuels et textuels
نویسندگان
چکیده
The main contribution of this paper is a new method for classifying document images by combining textual and visual features repectively extracted with the Bag of Words (BoW) and the Bag of Visual Words (BoVW) techniques. While previous attempts have been showing disappointing results by combining visual and textual features with the Borda-count technique, we’re proposing here a combination through learning approach. The other contribution of this paper are the experiments conducted on a 1925 document image industrial database revealing that this fusion scheme significantly improves the classification performances. Our concluding contribution deals with the choosing and tuning BoW/BoVW techniques in an industrial context. MOTS-CLÉS : BoW, BoVW, combinaison texte image, classification, application industrielle
منابع مشابه
Sélection par entropie de descripteurs textuels pour la catégorisation de documents XML
Dans le contexte de la catégorisation de documents, la sélection des descripteurs est une étape de pré-traitement importante qui permet non seulement de réduire la taille de l’index, mais aussi d’améliorer les performances des classifieurs. Parmi les approches utilisées pour construire un sous-ensemble de l’index, on peut distinguer d’une part, les méthodes de réduction de dimensions qui génère...
متن کاملClassification Automatique Non supervisée de Documents Textuels basés sur Wordnet
Mettre en œuvre l’une des méthodes de classification non supervisée consiste en premier lieu à choisir une manière de représenter les documents (Sebastiani, 2002) ; dans un second temps il faut choisir une mesure de similarité, et en dernier lieu choisir un algorithme de classification que l'on va mettre au point à partir des descripteurs et de la métrique choisis. Tout document dj sera transfo...
متن کاملContribution à la détection de concepts sur des images utilisant des descripteurs visuels et textuels. (Contribution to concept detection on images using visual and textual descriptors)
v
متن کاملUne nouvelle approche pour la recherche d'images par le contenu
Résumé. On utilise l’analyse factorielle des correspondances (AFC) pour la recherche d’images par le contenu en s’inspirant directement de son utilisation en analyse des données textuelles (ADT). L’AFC permet ici de réduire les dimensions du problème et de sélectionner des indicateurs pertinents pour la recherche par le contenu. En ADT, l’AFC est appliquée à un tableau de contingence croisant m...
متن کاملUn outil de détection automatique de thèmes
Vu la quantité de documents numériques disponible sur le Web et la nécessité de mettre au point des techniques de recherche efficaces, les systèmes de recherche d'information font de plus en plus appel aux techniques de Traitement Automatique des Langues (TAL) qui exploitent les informations syntaxiques ou sémantiques, dans le but d’améliorer la qualité des résultats fournis par les moteurs de ...
متن کامل